Exposé TWIX | UR ETTIS
David CARAYON, Jeoffrey DEHEZ
16/03/2023
La noyade : un problème de santé publique
Travaux exploratoires
Prédiction du risque noyade
Repartir des données / du modèle de Tellier et al. (2022)
Conserver la même philosophie (prédiction journalière, modèle binaire)
Mettre à jour avec des données + récentes (et mieux nettoyées)
Tenter de nouvelles méthodes statistiques prédictives (ex : RandomForests, xGBoost)
Mieux penser la communication
Aléas
Wave incidence factor : \({cos}_4H = cos((278 - D\_{HOULE}) \times \frac{\pi}{180})^4\)
Wave factor : \(HsTp = H_{HOULE} \times P_{HOULE}\)
Exposition
\(T_{air}\) : Température de l’air
\(day\) : jour (6)
\(month\) : mois (7)
\(wday\) : jour de la semaine (\(lundi = 1\))
BDD appels SAMU sur 2011-2022 | N = 522
Information binaire sur la journée (Noyade / Pas de noyade)
Transformations : Transformation LOG des distributions non normales, puis normalisation de toutes les variables numériques
Corrélations : Conservation d’une seule variable par paire avec r > 0.9
SMOTE (Synthetic Minority Oversampling TEchnique) : Génération de nouveaux individus synthétique de la classe minoritaire, très similaires mais non strictement identiques (Chawla et al. 2002)
Note
Le SMOTE n’est utilisé que sur les données d’entraînement, et non sur les données de validation et de test.
Ceci est du machine learning :
Random Forests
3 Hyperparamètres (manuels) : nombre d’arbres, nombre minimal de variables insérées à chaque arbre, profondeur minimale d’une branche.
XGBoost
4 Hyperparamètres : Les mêmes que Random Forest + un taux d’apprentissage
Séparation en train, test et validation
Validation croisée (cross-validation) par 10 folds
1. Recherche des hyperparamètres
| mtry | trees | min_n | tree_depth | learn_rate |
|---|---|---|---|---|
| 1 | 779 | 16 | 3 | 0.0381008 |
| 2 | 1640 | 29 | 15 | 0.0111921 |
| 3 | 929 | 14 | 11 | 0.0019834 |
| 3 | 593 | 24 | 13 | 0.0581914 |
| 3 | 172 | 37 | 7 | 0.1671812 |
Ces combinaisons sont obtenues par Latin Hypercube Sampling (Sacks et al. 1989), qui échantillonne de manière homogène à l’intérieur de l’intervalle des valeurs possibles de chaque paramètre.
2. Evaluation
La probabilité prédite est une valeur \([0,1]\). En raisonnement binaire, un accident est prédit lorsque \(P_{accident} \geq 0.5\)
Il est possible de gagner en précision en définissant des niveaux de risque.
Choix : Seuils arbitraires pour 5 classes équipondérées :
\[[-\infty ; 0.2 ; 0.4 ; 0.6 ; 0.8 ; +\infty]\]
| classe_risque | noyade | pas_de_noyade |
|---|---|---|
| I | 1 | 374 |
| II | 16 | 106 |
| III | 24 | 61 |
| IV | 26 | 38 |
| V | 11 | 6 |
| classe_risque | noyade | pas_de_noyade |
|---|---|---|
| I | 2 | 398 |
| II | 9 | 66 |
| III | 15 | 50 |
| IV | 27 | 49 |
| V | 25 | 22 |
Modeste amélioration par rapport au modèle précédent \(\rightarrow\) Limite du jeu de données ?
Données appel SAMU : La variable prédite se rapproche plus d’appel_SAMU que de noyade. On parlerait plutôt d’alerte “Tension Hôpitaux” plutôt que “Noyades Baïnes”
Approche envisagée : Focus sur les “mass rescues”, non tracée par les appels SAMU \(\rightarrow\) projet BEACH remontée informatisée des sauvetages sans appel SAMU.
Spatialisation de la prédiction ?
Communication orale WCDP 2023 : Using machine learning to predict drownings in surf beaches of southwest France